#AI 語音
3000萬人沒聽出是AI?TTS六大門派混戰,我直接暴力測試
事情是這樣的。最近幾個月,我但凡打開視訊號或者抖音,總被一個侃侃而談的“科技大佬”刷屏。這哥們叫「硅基大司馬」,專門講中國硬核科技,從晶片到光刻機,從新能源到機器人,啥都懂,啥都聊。最離譜的是他的更新頻率和產量,高得不像人類,整個矩陣,每天有20-30篇他的科技科普視訊產出!我以為,又是那個MCN機構捧出來的卷王。結果有人告訴我,這背後壓根不是「人」?我當時就愣了。那語氣的抑揚頓挫、自然的氣息律動,那種講到中國科技時不自覺挺直腰桿的勁兒,太像一個真的科技大佬坐在你面前吹牛了。我查了下,大司馬在全網幾十個矩陣帳號,已經有3000 萬粉絲,半年時間漲粉就2200 萬,每月 2 億觀看量,企業家 IP 榜上排在他後面的是周鴻禕、余承東、俞敏洪一眾大佬。這就不是玩票了,這是一場社會實驗等級的行為藝術。我立刻來了興趣。能撐起這種千萬級粉絲盤、讓人完全聽不出看不出破綻的AI,是什麼妖怪技術?順藤摸瓜,我挖到了硅基大司馬背後的聲音引擎——Smart Voice 1.0,號稱“一次成型、無需返工”。口說無憑,既然要測,那就玩把大的!然後,我拉上了目前市面上號稱SOTA等級TTS,做了一場慘無人道的暴力橫向測試。TTS六大門派圍攻光明頂,誰在裸泳?我在網上找的司馬華鵬的採訪,這放出來你們好有個對照。先從om**開始,這家的效果出來,好像一個沒有感情的讀稿機器,語調平直得像一根繃直的線,沒有什麼情緒的起伏。接著是Min****,這家失真的有點離譜,機械感很重。喉嚨裡像卡著東西,聲音像從一根生鏽的鋼管裡傳出來的。然後是Qw**,對比前面幾家,這家起碼聲音沒失真,不過在斷句節奏上有點不穩定,還是會有機械感。再然後,火**,這一家,和原聲偏差很大,完全不像本人。聽起來就像10年前打10086客服,電話那頭傳來的語音。好,重頭戲來了。Elev*****,你知道我最期待那家嗎?就是它。全球TTS市場份額第一,我滿心以為它會給我一個驚喜,結果呢?太心酸了。聽起來像是一個外國人在講中文,那種努力想模仿中國人講話,但發音但每個音都不在點子上的外國人。最後, Smart Voice 1.0我去,這才是該有的樣子。和本人聲線、音色的一致度,一字就是“像”。再有就是那種停頓時的呼吸感,全都在,甚至還有人講話時候那種猶豫感!一次成型,不需要返工,這才是關鍵。說到這個「一次成型」,我必須多聊幾句。很多人可能不知道,傳統流程做一分鐘商業級音訊,成本有多離譜。我查了一下。專業語音稽核質檢人員,日薪大概650到1100元。處理1小時音訊需要4到8小時,也就是說一天只能處理約1到2小時音訊。折算每分鐘稽核成本,約10到37元。如果算配音費用那更貴了,日薪2000到5000元。更重要的是時間。音訊出來了要聽,聽完要改,改完要再審。調音、改稿、稽核。如果再加上返工,傳統流程做一分鐘商業級音訊,成本輕鬆過百。Smart Voice 1.0呢?10元每分鐘。一次生成,不需要聽審,不用返工,直接上線。「硅基大司馬」幾十個矩陣帳號,半年漲粉2200萬,累計粉絲3000萬。每月2個億流量,單條視訊4000萬播放。榜單連續三個月TOP3,周鴻禕、余承東、何小鵬、俞敏洪、魏建軍一票大佬都在他後面。這不是實驗室demo,是真實戰場上的真刀真槍。說到這,大家盲聽試試吧。最後我也會在留言區公佈揭曉。Smart Voice 1.0 的出現,意味著AI語音賽道正在從“實驗室的玩具”向“工業級的拳頭產品”轉變。那些只會“念字”的TTS產品,如果不趕緊跟上,眼看就要被甩出幾條街。最後,我知道很多做內容、搞IP、做企業品牌的朋友已經對這個技術飢渴難耐了。我幫你們要了個福利。這是我從官方拿到的,Smart Voice 1.0內測通道。最後,我想回到開頭那個視訊。我現在知道了,它是AI合成的。但諷刺的是,我知道這個事實之後,再去聽他的視訊,反而覺得更震撼了。1880年代電力剛開始普及的時候,大部分人只是把電力當成一種更乾淨的蠟燭替代品,用來點燈。但真正吃到電力紅利的人,是最早想明白電力到底能幹什麼的人,工廠不用再圍著蒸汽機佈局了,流水線的形態整個被重塑了。AI語音現在就像那個階段。很多人還在拿它當「便宜的配音替代品」,但接下來幾年,聲音會變成無限供給的基礎設施,所有依賴真人聲音的商業模式都會被重構。當聲音可以無限供給的時候,內容和傳媒產業才真正具備了規模化的條件。這才是這次測試最讓我震撼的地方。 (識焗)
AI語音輸入法,人類進入「不打字」時代
破天荒,這是一篇用“語音”打出來的文章。一周前,我下載了一款叫Typeless的語音輸入法,當時我沒有意識到它會改變什麼。首先交代一下大背景:從2025年下半年起,AI語音輸入法成為驟然颳起的新風口。以語音輸入為核心賣點的豆包輸入法,登陸各大應用程式商店。大模型六小虎之一的智譜,推出智譜AI輸入法。其他的一些大廠輸入法,也都或多或少在加碼AI語音輸入。1月27日,搜狗輸入法宣佈重磅升級其語音輸入能力,稱其識別率達到98%,日均語音使用次數近20億次,穩居行業第一。風景不止這邊獨好,太平洋對岸的Wispr Flow目前融資額達8100萬美元,估值7個億。由華人開發的後起之秀Typeless在Product Hunt上線後連日高居排行榜前列,先後推出覆蓋主流平台的版本。此外,多個初創企業乃至個人開發者也推出了類似產品,閃電說、LazyTyper、Spokenly、秒言等等,不一而足。我原本以為,這又是一次和往常一樣的嘗鮮。畢竟近幾年來出現的AI新品如過江之鯽,其中大多數很難在我的螢幕上停留超過半天。所以,一開始我並沒有抱很大期待。結果卻是,這是自ChatGPT以來,最讓我眼前一亮的AI產品。我用了不到一周的時間,就改變了已經形成20多年的習慣:主要的輸入方式從打字變成了語音。甚至連這篇文章的初稿,也是用語音輸入完成的。我專門申請了另一個Typeless帳號,記錄完成這篇文稿的資料:用時53分鐘,輸入5500字,每分鐘155字,節省2.5小時。更快更準更多AI語音輸入的降維打擊對我來說,放棄打字轉向語音堪比“違背祖宗的決定”。因為我自詡是個打字愛好者。為了更好的打字型驗,專門學習擊鍵次數更少的自然碼雙拼輸入方案,配置了高度可定製化的輸入法Rime,買過好幾把不同軸體的機械鍵盤。你或許看不懂這句話裡的部分詞彙,沒關係,你只需要知道,這是鍵盤和輸入法愛好者群體中常見的專有名詞。即使如此,我的打字速度,最高也就每分鐘八九十個字,普通人裡已經算快了,大多數人的打字速度,也就每分鐘四五十字。我曾經潛伏在某個輸入法愛好者群組,裡面匯聚了眾多大神級人物,他們每天討論的話題,是如何自制各種類型的輸入方案,提高打字效率。其中有位在某二線城市當大學老師的成員,跟我有著類似的經歷,他從2025年末開始,正式“皈依”語音輸入。“我之前電腦用五筆,手機用小鶴雙拼,巔峰時五筆打字每分鐘130多字。”他如是說,“但跟現在的AI語音輸入比起來,打字還是差太遠了,我語音每分鐘甚至可以達到250字。”這個速度,即使是頂尖的打字專業選手,也望塵莫及。2013年全國漢字輸入大賽的冠軍,平均每分鐘也才打175個字。即使是口條並不利索的我,語音輸入也能穩定在每分鐘150字左右,稍微努力下,就能超越打字冠軍。速度是快,精準率呢?答案是,很準。即使是在前ChatGPT時代,也是如此。2018年史丹佛大學、華盛頓大學和百度的一項聯合論文顯示,語音輸入不論是速度還是精準率,都顯著優於鍵盤。速度上,英語母語者語音輸入每分鐘153字,鍵盤輸入僅52字;中文拼音使用者每分鐘鍵盤輸入43字,而語音達123字。不論中英文,語音輸入都比打字快了約3倍。在輸入過程的錯誤率上,語音的表現也更優。中文語音輸入的糾錯率為6.67%,而鍵盤輸入高達17.73%。在經歷了幾年大模型狂飆突進之後,AI語音的識別速度和精準率則更上一層樓。Typeless、智譜AI輸入法、閃電說都稱自己的速度比打字快4倍,一款叫LazyTyper的語音輸入法,更是聲稱比打字快7倍。精準率上,搜狗說自己精準率98%,智譜也在官網標註了97.8%。從網上的評測和個人體驗來看,這些廣告語並不算誇張。與大廠輸入法在鍵盤上做加法不同,初創企業和個人開發者的語音輸入產品邁的步子更大,或許必須更激進的姿態才能在紅海裡分一杯羹,他們直接取消了打字鍵盤,只保留了少數常用按鈕,語音鍵被提拔到了C位。傳統的語音輸入只是轉錄聽寫,但大模型加持下,語音輸入是一種更高維的產品,是“語音意圖輸入法”。它不只可以將語音一字不漏地轉錄,也能識別輸入者的意圖,刪除多餘的語氣詞,修改語法錯誤,捋順不連貫的地方,同時根據輸入環境調整語氣、翻譯潤色等等,都不在話下。那怕輸出錯了,也支援用語音修改。比如用Typeless輸出一句話:“我想去延津縣”,但其實你想輸入的是“鹽”津縣,你也只需要對著這句話說“把yán改成油鹽醬醋的鹽”即可。當然,你肯定會反駁,語音輸入就算又快又準,但不是什麼場景都適用。嘈雜的人群中能聽清嗎?在辦公室對著手機說話不尷尬嗎?曾經我也有類似的想法,但使用之後我打消了顧慮,即使是輕輕低語,也能基本精準無誤的輸入。我在辦公室偷偷用了5天語音輸入後,問我的左右鄰桌同事能不能聽到我輸入語音的聲音,他們的反應是:“你啥時候出聲了?”搜狗在宣傳稿裡稱,自家輸入法20分貝以下的語音依然有97%的正確率。20分貝,就相當於樹葉的沙沙聲,或者五米開外的低語。目前最大的不良體驗,反而來自意想不到的地方。比如戴上耳機後,語音輸入的正確率反而不如不戴耳機。比如單獨字詞的輸入,遠不如句子段落。越長的語音,精準率越高,顯然得益於大語音模型的理解和推理能力,越長的語音,其意義就越明確,可供參考的情境也就更多。而漢語中充滿了同音字詞,你只說一個沒有上下文的“yì”,誰知道你說的是藝、抑、易、邑、屹、億、役、臆、逸、肄、疫、亦、裔、意、毅、憶、義、益、溢、詣、議、誼、譯、異、翼、翌、繹、刈、劓、仡、佚、佾、埸、懿、薏、弈、奕、挹、弋、囈、嗌、嶧、懌、悒、驛、縊、殪、軼、熠、鎰、鐿、瘞、癔、翊、蜴、羿還是翳呢?不用數了,這裡有57個yì,漢語中同音字最多的讀音。但我相信,這些瑕疵日後都能得到一步步解決。就像不久前,AI圖片還無法攻克中文亂碼的問題,現在你已經可以用Nano Banana穩定地輸出帶中文的圖片了。而瑕疵掩蓋不住AI語音輸入更大的野心。我正在用的Typeless,光從名字上就可以看出,它遠遠不止想做一個輸入法,而是讓全世界進入無需打字(Typeless)的時代。這樣的野心並不出格。輸入法一直是網際網路最被忽視、卻又是最基礎的入口。大模型的摧枯拉朽,或許會給這片早已被瓜分完畢的戰場,帶來新的血腥。突破輸入框再造超級入口在中國,網際網路從PC時代的開放,走向了移動時代的封閉。App之間築起一道道高牆,形成一個個孤島。時至今日,你甚至連在微信裡點選觀看抖音的視訊都沒法做到,更不要說打通他們之間的生態。在一個個App孤島裡,只有為數不多的應用,能夠雨露均霑地穿梭在它們之間,輸入法就是其一。所有你需要表達訴求的地方,都需要它。以前,這個入口的重要性並沒有顯現出來,傳統輸入法能做的東西並不多,無非是收集使用者的巨量資料,插入一些廣告。但這個入口,抹上了AI的濃妝後,別有一番風韻。大模型讓輸入法這一古老的產品,重新變得性感,隱約得以瞥見看到“超級入口”的綽約風姿:如果這個入口的產品,不僅僅只是打字,而是能實現跨App甚至更高級的呼叫呢?其實目前的大模型,已具備了這樣的能力。前一陣子豆包手機就因為能夠實現系統級的呼叫而成為關注焦點,但遭到了眾多App的抵制。可以這麼想,未來AI語音輸入不再只是傳統打字輸入法的補充,而是一次突破輸入框的升維。不妨大膽一點,如果這個入口乾脆就是系統級的AI助手呢?在更廣闊的未來,語音輸入不只是移動裝置,而是貫穿虛擬和現實世界的交流介面?或許,未來的輸入壓根不需要專門的輸入法,也不需要這佔據了小半個螢幕的一畝三分地,它只是系統級AI助手順帶手就能完成的小事一樁。具像一點,AI語音輸入的未來應該是理想中的Siri。蘋果也可能意識到了這一點。據報導,蘋果將在2026年6月推出全新版AI助手,具備對話式互動能力,並有望整合到郵件、音樂、程式設計軟體等核心應用中。使用者只需要對著iPhone輕聲低語,就可以呼叫各種應用。為什麼偏偏是語音輸入呢?因為語音輸入才是人類交流的初始設定。語音輸入重歸C位,只不過是技術對人類行為的一次撥亂反正,人類的交流範式重新回到最自然、最合理的狀態。打字輸入才是人類走的彎路很多人把打字當作網際網路交流的初始設定,在我潛伏的輸入法愛好者群組裡,就有一位帶點原教旨主義色彩的打字擁躉。他至今仍抗拒使用語音輸入,他認為,對著手機電腦自言自語,簡直愚蠢到家。至於原因,他回覆了略有循環論證嫌疑的十一個字:“語音是異端,打字才是正統。”然而回望人類歷史,打字交流才是人類走過的彎路,語音從古至今都是人類交流的主要方式。即使是今天,世界上現存的約7000種語言裡,絕大部分都沒有文字,只依靠口口相傳。科學界普遍認為口語誕生自10到20萬年前。而目前已知最早的成型文字是5500年前蘇美爾人的楔形文字。我們打字用的QWERTY鍵盤,直到19世紀中後葉才出現,距今不過150年。如果把人類語言交流史劃分為24小時,那麼人類在最後一分鐘才開始用鍵盤輸入文字。套用《思考,快與慢》的作者丹尼爾·卡尼曼的觀點,說話屬於“系統1”,是刻在基因裡的本能,不需要太多思考,依賴直覺和習慣就行。而打字則屬於“系統2”,是你通過無數次敲擊建立起來的後天習慣,是需要費腦費力才能完成的動作。與英文輸入的簡單直接相比,中文輸入更難更複雜。從打字機時代開始,在很長一段時間裡,用鍵盤輸入漢字是難倒無數英雄漢的技術難題,有人甚至想通過消滅漢字採用拉丁字母的方式“曲線救國”。1980年,一本叫《語文現代化》的雜誌這樣寫道:“歷史將證明,電子電腦是方塊漢字的掘墓人,也是漢語拼音文字的助產士。”被很多人視為網際網路交流正統方式的中文打字,其實不過短短半世紀的歷史。1983 年,王永民發明五筆字型,通過“橫、豎、撇、捺、折”五種筆畫給簡體中文編碼,由於其重位元率非常低,熟練者可以實現盲打,很快就成為風靡全國的打字方式。“王旁青頭戔五一”。很多年輕人不知道,自己父母那一輩,打字是需要背口訣的,甚至需要報班花很長時間培訓才能掌握的技能。再後來,拼音輸入法的出現和網際網路的普及,才讓打字的門檻降下來。但直到今天,中文輸入法依然難以解決一個矛盾:輸入效率高的五筆,門檻也高;門檻低的拼音,輸入效率也低。你在 2026 年的知乎隨手搜一下“輸入法”這個關鍵詞,就會發現多個吐槽輸入法越來越難用的話題。五筆、拼音、注音、倉頡,不同的輸入方案捲來捲去,但它們之間並無本質差別,並不能真正解決漢字輸入法的痛點。或許我們應該認識到,打字,只不過是人類在語音和圖像互動技術尚未成熟之前的權宜之計。如今,大模型技術日漸成熟,語音識別技術有了質的飛躍,規模化的替代效率低下的打字輸入法,幾乎是必然。倫敦政治經濟學院的一項研究發現,預計到 2028 年,生成式 AI 將主要以語音方式互動。當然,短期內語音輸入並不會完全取代傳統輸入法。語音輸入還有很大的進步空間,飯要一口一口吃,路也要一步一步走。就我個人而言,重度使用語音輸入後有兩個意外之喜。一是改變了我的寫作方式。以前寫文章,我需要在電腦前一坐就是幾個小時,即使是用著符合人體工學的鍵盤、滑鼠和椅子,也難以抵擋久坐帶來的生理不適。你現在看到的這篇文章,大部分文字是我在沙發上躺著、在馬桶上坐著、在地鐵上站著寫出來的,我告別了預留大塊時間的寫作模式,轉而變成“隨地大小寫”。與其說我面對的是一個語音輸入法,不如說是在對著一個具有整理、思考能力和主觀能動性的秘書,既忠實我的原意,也不至於照搬全收。也許我們可以效仿眼下在程式設計師中流行的Vibe Coding(氛圍程式設計),為碼字的人也創造一個全新的名詞——Vibe Writing(氛圍寫作)。二是語音讓我與 AI 的交流更高效。打字時受制於速度,我傾向使用更簡短的提示詞,往往需要多輪互動才能得到想要的結果。而語音輸入時,我會一口氣說出一段很長的提示詞,甚至達到四五百字,常常一次性就能得到滿意的答案。就像現在的 10 後不知道為什麼手機螢幕上電話的標識是聽筒,未來的一代或許也不知道,為什麼曾經人們輸入文字還要專門裝一個輸入法。 (36氪)
H200晶片銷往東村引猜想,大摩研報唱多台積電:存在一定可能拿下中國大陸AI GPU代工訂單
輝達H200晶片有望對中國出口,這條消息傳開後,引發了市場的無盡遐想。其中廣為流傳的一點猜測是,假如東村和西村關係因此緩和,東村的AI GPU代工業務,會否花落台積電。針對這個問題,摩根士丹利近日發佈研究報告稱,如果中國AI GPU代工業務真的落地,將成為台積電業績的重要增量。大摩在報告中明確重申其“首選股”地位,維持增持投資評級,目標價1688新台幣。Part.01 市場最關心的2個問題大摩認為,當前投資者最糾結兩個核心問題,其實也決定了台積電切入中國AI市場的節奏:西村考慮允許H200對東村出口,是要改善貿易關係嗎?東村AI晶片公司“降級設計”,能拿到台積電代工嗎?大摩的判斷是有機會!此前就有消息稱,中國晶片企業正通過聚焦“推理場景”(比如AI語音助手、圖像識別等輕量級應用)降低晶片性能,以符合代工要求。供應鏈調研顯示,壁仞科技等本土企業已在採用台積電工藝設計相關晶片,還能用LPDDR替代高端HBM記憶體,精準適配推理需求。Part.02 台積電的底氣很多人擔心台積電過度“依賴中國需求”,但公司自己的表態很有信心:在2025年第三季度財報電話會議上,管理層明確說,即便來自中國大陸的機遇有限,未來5年AI相關業務的復合年增長率也能達到40%左右或更高。這意味著,中國大陸市場對台積電是“錦上添花”而非“雪中送炭”:現有AI業務的高增長已能支撐估值,一旦政策放開,中國大陸AI半導體的龐大需求,只會進一步推高其業績天花板。Part.03 輝達B40遇冷,本土晶片補位大摩在報告指出,輝達B40產量低於預期,核心原因是“性價比對中國客戶沒吸引力”,這給本土晶片和台積電的合作留足了空間;目前中國AI推理計算主要靠三類晶片:5090遊戲顯示卡、改良版Hopper晶片,以及本土設計晶片;隨著中國LME衛星、AI大模型等需求爆發,推理晶片的需求還會持續增長,台積電的工藝優勢的會更突出。Part.04 對中國本土代工廠的影響如果台積電真的切入中國AI GPU代工,會不會分流本土代工廠的需求?大摩認為,中芯國際仍被看好:即便需求分流,其技術和產能優勢仍能穩住核心份額。但華虹半導體壓力較大:關聯公司HLMC的7nm業務可能首當其衝受到衝擊,因為其在高端製程的競爭力相對較弱。 (智通財經APP)
OpenAI又放大招!語音AI秒殺Siri?
昨晚你被GPT-Realtime刷屏了嗎?這次OpenAI真的玩大了! 😱想像一下:你剛問完問題,AI就秒回,比人類反應還快!不是文字,是真人般的語音對話,流暢得讓你懷疑對面坐著個活人。這就是GPT-Realtime的魅力——告別傳統語音助手的機械感,擁抱真正的智能對話!💡 三大殺手鐧讓人驚豔:秒級響應,告別等待焦慮! 以前語音AI要轉錄→理解→生成→播放,現在直接音訊處理,延遲幾乎為零。試想客服場景,顧客剛說完問題,AI立馬給出專業回覆,這效率誰不愛?智商爆表,精準率82.8%! 能聽懂笑聲、捕捉情緒變化,甚至在句子中間無縫切換語言。西班牙語問個電話號碼?日語聊個天?毫無壓力!比上一代提升17%,這進步簡直可怕。成本直降20%,普通人也能用! 之前每百萬音訊輸入要40美元,現在32美元,輸出也從80美元降到64美元。創業者終於不用為語音AI的帳單發愁了!更絕的是,Zillow、T-Mobile這些大廠已經搶先體驗,房產搜尋、客戶服務都能像朋友聊天一樣自然。想像一下,找房子時AI能根據你的生活方式推薦,還能用溫柔的聲音討論貸款方案,這體驗絕了! 🏠Cedar和Marin兩個新聲音 更是顛覆傳統,自然度和表現力讓人分不清真假。配合MCP協議支援,開發者接入資料變得超簡單,就像給AI插上了USB介面。當AI語音助手變得如此智能和親切,我們的工作、生活會發生怎樣的變化?客服、教育、個人助理...那個行業會首先被顛覆?你試過最智能的語音AI是什麼?GPT-Realtime會成為你的新寵嗎? (澤問科技)
蘋果Siri王炸新功能曝出,AI操控一切App,又一華人AI研發跳槽Meta
蘋果將實現“動口不動手”操作iPhone。新版Siri終於要來了!智東西8月11日消息,知名蘋果爆料人、彭博社記者馬克·古爾曼最新爆料,蘋果即將推出新版Siri語音控制功能,並升級其開發者框架App Intents。升級後的Siri將可以僅用聲音指示就可以自主打開App完成發帖、購物等操作。對於新款產品,蘋果首款OLED MacBook Pro推遲至2026年底至2027年初,搭載M5晶片的版本將於明年初發佈。此外,爆料還稱,蘋果CEO蒂姆·庫克與美國總統川普達成協議,將在美國本土生產iPhone和Apple Watch的蓋板玻璃。蘋果正完成正式版iOS 26和Liquid Glass 1.0的研發工作,且蘋果短期內不會在美國生產iPhone。另外,蘋果AI工程師朱雲轉投Meta,這已是自龐若鳴以來的離開蘋果的第5位AI工程師。01. 新一代siri要來了! 僅用語音就能操作應用程式在此前,許多蘋果觀察人士惋惜Siri無法呼叫個人資訊來更好地處理請求,例如尋找朋友傳送的特定檔案、定位通過簡訊分享的歌曲,或從照片中調取駕照號碼。這項能力本是2024年全球開發者大會上Siri演示的亮點,但其卻被推遲到現在。▲2024年全球開發者大會上展示的Siri(圖源:CNBC)但古爾曼認為這沒什麼大不了的,真正改變遊戲規則且蘋果幾乎未曾提及的,是升級版的開發者框架App Intents,這項技術可能最終使Siri成為iPhone真正的免提控製器。新的App Intents將意味著,僅用聲音,使用者就能指示Siri找到一張特定照片,編輯它並行送出去;或是在Instagram帖子上發表評論;或是滾動瀏覽購物應用並將某物加入購物車。或是不觸碰螢幕就登錄某項服務。本質上,Siri將能像你一樣操作你的應用,精確地在它們自己的介面內完成操作。如果蘋果能成功實現這一點,這不僅是一個不錯的易用性升級,更是兌現了近15年前Siri所承諾的願景。這也是蘋果下一個硬體發展的關鍵。蘋果即將推出的家用裝置,例如計畫明年推出的智能顯示器和之後的桌面機器人,都將依賴這項技術來實現自然互動。沒有新的App Intents,這些產品的吸引力可能還不如亞馬遜和Google5年前推出的裝置。這就是為什麼Siri的延期在整個公司的其他產品計畫中產生了連鎖反應,它已經導致智能顯示器的發佈被推遲整整一年。蘋果深知其中利害。在公司內部,測試和完善這一功能已成為其全球資料營運團隊的首要任務,該團隊專門負責將Siri和Apple Intelligence的輸出與原始資料進行比對,排查錯誤並為潛在修復提供依據,蘋果不希望再次因承諾過高而交付不足登上新聞頭條。當前計畫是在春季隨Siri基礎設施全面升級時推出該功能,並進行大力推廣。但據內部消息,公司內部存在一些擔憂:工程師們正竭力確保該系統能相容足夠多的應用程式,並具備處理高風險場景所需的精確度。特別是在健康類、銀行類等對精度要求嚴苛的應用場景,軟體故障的風險令人憂慮。多年來,使用者飽受Siri理解偏差之苦,當手機搞錯你查詢天氣的城市或導航至錯誤餐廳時,雖令人惱火但尚不致命。但若讓現有版本的Siri全面接管所有應用操作,風險係數將呈幾何級增長。正因如此,蘋果選擇暫緩新版Siri的全面鋪開。目前蘋果正與優選第三方應用進行測試,名單包括Uber、AllTrails、Threads、Temu(海外版拼多多)、亞馬遜、YouTube、Facebook、WhatsApp甚至部分遊戲應用。針對銀行等敏感領域,蘋果正考慮嚴格限制Siri的操作權限或直接排除這些功能範疇。這場變革遠不止於提升Siri的智能水平,實質是為蘋果生態系統打造全新的語音優先互動介面。倘若蘋果真能將其成功推向市場,很可能會成為多數使用者始料未及的爆款產品。另外,蘋果首款OLED MacBook Pro推遲至2026年底至2027年初發佈,搭載M5晶片的版本將於明年初發佈。02. 蘋果將在美國本土生產手機和手錶的蓋板玻璃多年來,蘋果CEO蒂姆·庫克一直自豪地強調iPhone玻璃“美國製造”的屬性,這源於與康寧公司的長期合作。但蘋果上周的表態顯示,這一說法並不完全屬實。在與美國總統川普達成的新協議部分內容中,蘋果承諾將在美國本土生產全部iPhone和Apple Watch的蓋板玻璃,暗示此前部分材料實為海外採購。▲美國總統川普與庫克(圖源:彭博社)需說明的是,庫克或許從未明確宣稱所有iPhone玻璃均為美國生產。但他在“美國製造”宣傳中頻繁提及與康寧的合作關係,足以讓公眾形成這種認知。以蘋果2021年的新聞稿為例:“在蘋果先進製造基金支援下,雙方專家共同研發了新型微晶玻璃,其強度源自奈米陶瓷晶體。該材料在康寧肯塔基州哈囉茲堡工廠生產——這裡正是歷代iPhone玻璃的製造基地。”事實上,據知情人士透露,此前僅有部分玻璃產自肯塔基州,因此這項Apple Watch玻璃本土化生產的最新承諾標誌著重大調整。但這仍只是象徵性的舉措,因為蘋果玻璃製造的核心成本與工藝難點在於海外完成的切割與精加工環節,肯塔基州僅負責原始玻璃基板的生產。且蘋果宣稱康寧產線調整將耗資25億美元(約合人民幣179.5億元),該數字在蘋果宣傳的“未來數年6000億美元(約合人民幣4.3兆元)對美投資計畫”面前相形見絀,25億美元僅佔總額的0.4%。古爾曼認為,庫克正雙線操作,既向川普釋放“全面配合政策”訊號,又向公眾行銷這一形象。為維持川普政府好感,庫克顯然認為這值得付出任何代價。但消費者是否買帳仍是未知數,部分使用者或願為避開政治鬧劇支付溢價,另一些則樂見庫克保護股東利益並維持產品售價的務實策略。03. 蘋果即將完成iOS 26和首版Liquid Glass的開發工作隨著公司準備在9月上旬推出iPhone 17系列及其他新產品,蘋果工程師們正接近完成iOS 26及配套作業系統的最終期限,上周第五個測試版已非常接近最終公開版本的發佈。▲iOS 26(圖源:彭博社)最新的測試版運行相當流暢,公司在整體性能和電池續航方面確實有所改進。最新測試版中最大的變化包括:解鎖iPhone和在控制中心滾動時出現的彈性動畫,以及相機應用中可反轉滑動方向以在視訊、照片、人像和全景等模式間切換的功能。動態島介面還為低電量警報設計了新樣式。還記得三年前蘋果在iPhone 14上推出動態島時,聲稱將逐步改進和擴展該功能嗎?然而除了一兩個小調整外,蘋果幾乎什麼都沒做。這再次印證了蘋果推出某項功能後便基本不再跟進的做法。04. 朱雲跳槽Meta 短期內還將有人離職蘋果又一位AI工程師轉投Meta。上個月,已有四名知名AI模型工程師從蘋果跳槽至Meta的超級智能實驗室,其中包括蘋果基礎模型團隊前負責人龐若明,以及他的三名工程師馬克·李、湯姆·岡特和張博文。如今,第五位AI研究員朱雲也將離開蘋果的模型團隊前往Meta,將加入超級智能實驗室集團現有的基礎模型團隊。▲朱雲(圖源:Linkedin)其領英首頁顯示,朱雲於2022年1月加入蘋果,擔任蘋果機器學習工程師,至今已有近四年的時間。如今對蘋果AI模型團隊來說是個艱難時期,由於公司在人工智慧領域的進展令人失望,該團隊備受壓力。據知情人士透露,在士氣低落和Meta開出天價薪酬的雙重影響下,短期內可能會有更多人離職。05. 結語:蘋果正在經歷轉型陣痛智能顯示器等新硬體延期,暴露出蘋果軟體能力對硬體路線的制約。相較亞馬遜Alexa與GoogleAssistant已建構的智能家居矩陣,蘋果的滯後可能使其錯過家庭入口的關鍵窗口期。連續5名AI核心成員轉投Meta,不僅削弱了其研發實力,更暴露蘋果在生成式AI浪潮中的戰略搖擺,專注垂直場景的蘋果可能還將面臨更嚴峻的人才爭奪。 (智東西)
AI 語音爆發的這半年,一位「局中人」看到的賽道爆發邏輯
蘋果 Siri 折戟,但越來越多的「AI Siri」拿到了融資。過去半年,「AI 語音」賽道正密集地獲得融資。尤其引人注目的是,這些融資多為大額,並且投向早期團隊。比如,前不久 AI 語音應用 Wispr Flow 靠「默念輸入」,完成了 3000 萬美元的 A 輪融資,累計融資額已達 5600 萬美元;語音模型公司 Cartesia 在 3 月份完成了 6400 萬美元的 A 輪融資,累計融資 9100 萬美元;AI 語音合成公司 ElevenLabs 更是在 1 月份宣佈完成 1.8 億美元的 C 輪融資,估值超過 30 億美元。與此同時,無論是 Meta、OpenAI、Google 等科技巨頭,還是 MiniMax 等創業公司,都在密集發佈自己的語音模型或語音產品。Siri 也被曝出或將被 ChatGPT 或 Claude 等模型接管,來跟上語音互動的進展。這些消息無一例外都指向了 AI 語音的火爆。為什麼過去半年多以來,AI 語音領域會如此集中地爆發?聲智副總裁黃贇賀認為,語音對話從一個 App 中的功能模組,迅速進化為 AI 時代入口等級的存在,與大模型的加持有極大關係。在智能音箱紅極一時的年代,大部分我們熟知的智能音箱品牌都搭載了聲智的遠場聲學互動技術,比如小愛同學、天貓精靈、小度音箱等等。而「小愛小愛」的喚醒詞,實際上也是來自於聲智。這家公司創辦於 2016 年,一直在聲學+ AI 交叉領域探索。然而,作為一家在幕後提供 AI 聲學技術的公司,在大模型浪潮來臨之後,果斷選擇下場投身開發自己的 C 端產品。毫無疑問,他們看到了這波「大模型+語音」浪潮裡新的商業機會,其旗下的 AI 耳機目前出貨量已接近 100 萬套。前不久,極客公園與聲智副總裁黃贇賀聊了聊 AI 語音市場的爆發邏輯、語音互動的「卡點」,以及它將如何影響我們的未來。以下內容根據黃贇賀的講述和聲智的論文整理而成:AI 語音的想像力,已經遠在 Siri 之上|圖片來源:網路01 AI 語音為何現在爆發了?最近兩年,越來越多的 AI 語音初創團隊獲得大額融資,集中爆發。其中,一個很重要的推動因素是,大模型讓聲音這項基礎能力首次實現了「可程式設計化」。「可程式設計化」這個詞,意味著將一種能力或者一個對象,通過清晰的介面和邏輯,變得可以被程式碼自由地呼叫、組合、修改和控制。過去,文字是可程式設計的,圖像是可程式設計的,甚至視訊也是可程式設計的(比如視訊編輯軟體)。但聲音更多的是一種「輸入」或「輸出」的介質,其內部的複雜結構和資訊,很難被軟體直接「程式設計」和「理解」。傳統的語音識別,更多是把聲音轉換成文字,然後對文字進行處理。比如,之前在深圳、成都有很多做聲音標註的團隊,拿到語音之後,再人工轉換成文字,打上不同的標籤,比如各種特徵、意向的標籤。大模型來了之後,打標籤的這項工作可以交給大模型,它比大量的人工團隊標得快和准。以前做 NLP 的背後都是一堆苦逼的營運在那裡打標籤,讓 AI 系統能夠識別每個句子的意向。過去,語音的開發,每增加一個功能,都需要從頭寫程式碼,費時費力。比如,想讓智能音箱支援「點外賣」,得單獨開發一套語音識別和語義邏輯,成本高、周期長。而現在 AI 大模型可以解決了。更重要的,依靠大模型對多模態資料的深度理解能力,對聲學訊號的更細緻解析,使得聲音本身攜帶的除了文字資訊之外的更多資訊,開始被 AI 系統直接捕捉、理解和「程式設計」。這種可程式設計化,意味著 AI 可以像處理資料一樣處理聲音。它可以分析聲音的頻率、振幅、波形,提取出情緒特徵、識別不同的聲源、聲源距離、甚至預測你的意圖。這時,聲音包含的不再僅僅是「你說了什麼」,更是「你如何說」、「你在那裡說」、「誰在說」以及「你說了之後希望發生什麼」。由此,聲音也成為了真正的互動引擎。02 真正的語音互動,不是「Voice」而是「Sound」其實,很多人以為,語音互動就是「Voice」(語音)。但其實 Voice 這個詞是一個狹窄概念。真正的語音互動,核心不是「Voice」,而是「Sound」(聲音)。Sound 裡面包含了 Voice。具體來說,「Sound」包含了更豐富的元素:語調、音色、節奏、情緒,更重要的是環境音。環境音裡面可能包含了環境中的各種非語音資訊,比如背景音樂、環境噪音(風聲、雨聲、車聲)、物體發出的聲音(開門聲、打字聲)、以及人類語音中包含的非語義資訊(語調、語速、音色、語氣詞、嘆息聲、笑聲、哭聲等)。比如說,你咳嗽的時候,跟 AI 說話,它可能會識別出咳嗽,然後跟你說多喝水;比如,你在咖啡館說,「幫我找個安靜的地方」,AI 不僅要理解你的指令,還要從背景音中判斷出你當前的環境嘈雜,從而推薦附近的圖書館。當我說「下一代對話互動的入口並非『Voice』,而是『Sound』」時,我指的是 AI 系統將不再僅僅依賴於識別你說的「詞」,而是能夠全面感知和理解你所處環境的「聲學場景」中的所有關鍵元素。只有當 AI 能夠全面感知並解析「Sound」中包含的這些多維度資訊時,它才能真正理解使用者的深層需求,提供更精準、更個性化、更富有情感的互動。這才是真正的「語音互動」,它不僅僅是「聽懂」字面意思,更是「聽懂」你的「言外之意」和「心聲」。03 語音互動的「卡點」,大廠燒錢也沒用儘管大模型帶來了語音互動的巨大飛躍,但語音互動當下依然存在一個核心的「卡點」,而這個卡點根植於物理學,具體來說,就是聲學。我們常說「聽清、聽懂、會說」。「聽懂」和「會說」的能力,正在被大模型以前所未有的速度提升。但「聽清」這個最基礎的環節,卻受到物理層面的制約。如果 AI 聽不清你的指令,即便它能「聽懂」再複雜的語義,能「會說」再動聽的話語,那也都是空中樓閣。比如說當下最熱門的具身智能,現在很多機器人都是電驅動的,那麼它帶來幾個大問題,一方面是電路的噪聲本身就很大,另一方面是關節噪聲,還有就是很多機器人是金屬材質,厚厚的,聲音在穿透時會大幅衰減。所以,機器人動起來的時候,噪聲很大,尤其在室外,更難聽清楚人的指令。要麼大聲喊,或者拿麥克風喊。因此,現在很多機器人都要靠遙控器來控制。當下最先進的具身智慧型手機器人仍然依賴於遙控器來操控|圖片來源:網路這方面,其實就需要對聲學層面的突破,比如說環境噪聲的抑制,比如電路底噪的抑制,還有嘯叫的抑制、混響迴響的抑制等等。而這些就是物理學科的邏輯,它需要資料樣本,需要 know how 的壁壘,不僅是技術問題,而是時間的問題,需要時間去採集聲音、做訓練。這不是燒錢能解決的。讓 AI 精準地「聽清」使用者的指令,依然是一個世界級的難題。而聲學相關的人才很少,所以像Google、微軟、蘋果經常會收購聲學技術的初創公司,幾乎只要出來一家就會收購他們。大家都明白,要建構真正的下一代人機互動系統,擁有核心的聲學能力是基石。04 語音互動的下一站,是實現「共情」現在很多 AI 應用的日活、留存不高,有個很大的原因就是普通人本身是不會提問的,讓人向大模型提問,這本身就是一個非常高的互動門檻。好的提問還需要學識、表達等基礎,所以停留在文字層面的問答,本身就是一種門檻限制。而語音帶來的一種可能性是,它正在開啟一個全新的階段——人機互動的「共情模式」。如果把語音互動比作一個「UI 介面」,那這個介面會長什麼樣?我們可以做個推演,它的構成要素可能會有:情緒識別:AI 通過分析語調、音量、語速,判斷使用者的情感狀態。比如,你的聲音顫抖,AI 可能推測你在緊張或傷心。意圖理解:不僅聽懂你說了什麼,還要明白你想做什麼。比如,你說「播放音樂」,AI 會根據你的情緒,決定是放搖滾還是古典。聲紋識別:通過獨一無二的音聲波特徵,區分不同使用者。比如,家裡的智能音箱能自動切換到「孩子模式」模式,只為孩子的聲音提供安全的回應。情緒生成:AI 的回應需要帶有情感化的表達。比如,用溫暖的語氣說「別擔心,我來幫你解決」,而不是機械的「好的,正在處理」。這些要素的背後,是 AI 從「功能導向」到「情感導向」的轉變,AI 會與人實現共情。這種互動,能顯著提升長時間互動的質量和親密感。不僅如此,從狹義的「Voice」拓展到廣義的「Sound」,當 AI 能接收到的不僅僅是使用者的指令,而是整個物理世界的即時反饋時,我們可以去建構一個「聲學世界模型」。這個「聲學世界模型」可以理解聲音在物理世界中產生、傳播和互動的根本規律,它不僅要「聽清」和「聽懂」,更要具備「聲學常識」和「聲學推理」的能力:它能從一聲悶響中分辨出是書本落地還是箱子倒塌;能通過回聲判斷出房間的大小與空曠程度;更能理解「腳步聲由遠及近」背後所蘊含的物理運動邏輯。未來,當這樣一個聲學世界模型與視覺、語言大模型深度融合時,具身智慧型手機器人將不再「失聰」和冰冷。這也是我們正在做的。 (極客公園)
不見投資人,年入1億美金,一款AI錄音機的10倍增長神話
回溯至兩年前,鮮少有人能預見,一款貼在iPhone背後的AI卡片錄音機,能讓一家年輕的公司幾年內席捲海外市場。2021年,年輕的連續創業者許高正在尋找第四次創業方向。他發現,Google上一個名為“Live Transcribe”的APP下載量超過10億。這是一個即時語音轉文字的應用,基於自動語音識別技術(ASR),可將即時對話內容轉錄為文字,但由於無法儲存音訊或文字,因此還需將資訊挪移至Google Pixel上才能使用。語音轉文字顯然是個剛需。中國錄音筆中支援即時轉寫的AI錄音筆佔比超35%。弔詭的是,在海外沒有一款硬體能解決這個問題。錄音筆大廠索尼、Olympus、Philips的產品迭代停滯將近十年,功能上仍以單一錄音為主,並沒有即時轉寫、多場景適配、智能降噪等技術。這是一個絕佳的時機。關注到海外人群對語音轉文字工具的迫切需要,許高創立Plaud.AI並以錄音裝置為切入點,在次年發佈了首款支援手機控制、具備IoT能力的錄音筆產品。半年內,公司實現了盈利。自此,Plaud.AI進入了無人之地。2023年6月,Plaud.AI推出了搭載AI功能、可無線控制的智能錄音筆Plaud Note,營收和銷量迎來爆發式增長。Plaud Note(圖源/企業)根據Z Potentials報導,截至2024年11月,Plaud.AI年化收入1億美金,連續2年達十倍增長。創始人兼CEO許高在接受《時代》雜誌採訪中也透露,其產品已向全球出貨近70萬台。“我們做的事情就像無線耳機取代有線耳機一樣。定價上是按照業界均價的三倍來定價,但依然做到了整個品類銷售額的第一名。”他在接受媒體採訪時公開表示。投資人當然不會忽略這個項目。然而,公開資訊中暫無Plaud.AI獲得融資的記錄,也未見任何投資機構以資方身份發聲或披露相關資訊。多位業內人士告訴硬氪,不少投資人對Plaud.AI頗感興趣,但創始人始終沒有深度溝通意向。有投資人告訴硬氪,產品Plaud Note爆火後,有不少機構找上門想參股,最後連創始人都沒見到。也有投資人坦言,儘管Plaud.AI成長速度超預期,部分機構曾密切關注過該項目,但一個現實的情況是,這類消費科技向產品在早期其實很容易踩雷,投資人往往難以決策出手。“核心原因就在於,AI錄音筆作為一個並不創新的產品形態,其差異化價值在前期難以被直觀感知。再加上海外使用者和國內使用者的需求也有很大不同,產品力存在不確定性,所以我們對這類項目的態度也就愈發謹慎。”關注智能硬體領域的投資人胡昀告訴硬氪。Plaud.AI背後是硬體創業公司的悄然轉變。過去,入局者比拚供應鏈能力、研發實力、資金多寡,如今,創業者卻能用難以捉摸的“體驗”撬動大市場。硬體賽道的投資人發現,當中國公司徹底擁抱全球市場,賭局更加複雜,留給他們猶豫的時間,卻越來越短。01 從解決單點任務到一站式方案每周一晚上9點,位於深圳的一家跨境電商公司都會準時召開跨國周會。會議室裡,電腦螢幕上跳動著的Google Meet視訊畫面,彈出來自洛杉磯、柏林、東京和曼谷等團隊成員的聊天窗口,他們依次匯報著上周的供應鏈問題和管道出貨情況,當中偶爾夾雜著泰式英語和德國銷售術語。以往,這樣的會議需要至少需要兩名員工參與:一人緊盯發言同步敲字,另一人用手機錄製音訊。即使有系統自動字幕,但各種專業術語和交叉討論仍然增加了不少復盤難度。散會後,他們要將零散的筆記與錄音對照,整理會議紀要再逐條拆解,至少要整理半天,才能把資料遞到老闆桌前。一旦遇到緊急問題,很容易錯過最佳的響應時間。而現在,這些問題都可以用一個卡片大小的錄音筆來解決。Plaud Note是一款無線控制的智能錄音筆,使用者輕觸開啟按鈕即可開始錄音,當中內建了三個高靈敏度麥克風,以保障錄音效果清晰無雜音。它的外形輕薄,厚度只有2.9至3毫米,支援Magsafe磁吸技術,能吸附在手機背部。滿電狀態下,最長連續錄音可達到30小時,並容納約480小時的音訊內容。同時,它還具備AI降噪最佳化功能。錄音結束後,其內容可同步上傳至雲端保存,防止資料丟失。Plaud Note支援Magsafe磁吸(圖源/企業)而在具體功能上,Plaud Note最大賣點之一,是它作為全球首款搭載ChatGPT的錄音筆,將AI智能演算法與錄音功能有效融合。Plaud Note支援近60種語言的文字轉換,可將錄音內容整理成腦圖、筆記或日記形式,提升資訊整理效率。Plaud.AI發現了使用者最底層的需求:錄音只是手段,最終目的是完成內容整理。比如開會錄音的最終目的,是為了不遺漏關鍵決策點和待辦事項,而不是整理出一份講話稿。使用Plaud Note錄音中(圖源/企業)“今天市場上各種消費電子商品琳瑯滿目,拉高了使用者對創新產品的功能整合度、場景適配性與使用體驗的期待值,使用者不再為單一賣點買單,而是希望能解決實際生活裡的多元問題。對企業來說,產品能否精準切中痛點,需要團隊花時間深入場景去理解使用者。”胡昀說。他告訴硬氪,Plaud Note能夠爆火的原因就在於,它建構了一套完整的使用者體驗閉環——從硬體音訊採集、智能轉寫再到深度內容總結提煉,形成一站式的解決方案,無需在不同產品間切換,極大提升了效率與使用便捷性。正如許高所說,“未來每個人都會擁有一個隨身AI裝置,捕捉其說過、聽過、看過的內容。”所以Plaud.AI也在不斷地挖下挖掘,許高也透露,公司正探索如何將Plaud Note融入更多工作場景;比如在生成摘要的基礎上增加協作功能,通過API打通Salesforce、HubSpot等SaaS工具系統,實現語音資料的自動識別與跨平台同步。如果要一邊錄音一邊生成紀要,Plaud.AI是唯一選項。所以它們理所應當地賺起兩份錢:硬體本身售價159美元,如果要使用全部AI功能,使用者每月需再支付9.9美元的訂閱費用。02 賭一把還是錯過大收益?過去兩年,當AI硬體創業者們蜂擁至人形機器人、AI眼鏡等資本風口時,Plaud.AI卻將目光投向看似傳統到近乎平淡的錄音筆品類。在這個稱得上被智慧型手機邊緣化的工具賽道,它捕捉到指數級增長的潛在商業機會。Plaud.AI在爆發式增長的同時,吸引了眾多投資人的關注,可以說成了大熱門。然而,Plaud.AI剛誕生時,情況截然相反。長期服務消費電子、智能硬體項目的FA劉暢則告訴硬氪,即使是如Plaud.AI這樣創收能力強勁的項目,實際上在這個圈子裡,早期並不吃香。“很多時候這類項目都推不出去,可能連CEO都拿不準產品到底能不能爆,投資人也就更猶豫了。”另一個典型案例是無弦吉他品牌LiberLive,兩年內實現年營收超10億、銷量全球第一,而在其早期參加路演時,投資人對這個創新品類普遍興趣寥寥。這類消費科技產品在資本市場往往面臨一定的認知時滯,它呈現出獨特的投資周期特性。在萌芽階段,早期投資人因產品需求未經過市場的充分驗證,難以預見其使用者增長潛力而躊躇不前。投資機會轉瞬即逝。等到產品引爆市場、現金流日趨穩健時,企業已建立起自造血能力,更傾向於保持產品迭代與業務佈局的獨立性,反而對資本持審慎態度,投資人已經難以介入。Plaud Note在海外參展(圖源/企業)“傳統消費電子投資的邏輯框架正在失效。過去投資人可依靠技術參數對比、市場規模測算和使用者調研資料來判斷,但這種辦法到了盡頭,硬體創新已進入一個模糊地帶。”劉暢告訴硬氪,“如今,一款硬體產品的成功標準不再由硬體參數主導,而是取決於能否精準捕捉使用者痛點和需求,與使用者認知習慣、使用場景和情感訴求深度繫結。這種動態變化的關聯性,是任何靜態的市場分析都難以預見和決策的。”同時,硬體賽道普遍面臨“三明治困局”,夾在大廠和華強北白牌之間。以Plaud.AI所處的智能錄音賽道為例,這種產品上有手機廠商升級原生系統的AI轉寫、筆記等功能擠壓,下有白牌廠商通過價格戰搶奪市場空間。“當產品差異化越來越依賴於場景創新和產品體驗,對創業公司來,需要在使用者洞察和軟體能力建構上投入大量時間和資源,這註定是一個長期的過程,與資本期待的短期回報存在矛盾,無疑進一步加深了投資決策困境。”胡昀告訴硬氪。回到Plaud.AI本身,目前來看,它們在產品研發策略上試圖通過多矩陣產品形成差異化覆蓋。2024年8月,Plaud.AI推出可穿戴式AI錄音機Plaud NotePin,採用藥丸形狀的機身,可搭配掛繩、腕帶和夾子等多種配件,售價169美元。Plaud Note定位為管理者的會議效率工具,具備電話錄音功能;Plaud NotePin則專注於移動場景,以磁吸式穿戴設計適配高頻對話的工作人群,如醫生、建築管理者、奢侈品從業者、數字遊牧民等。Plaud.AI推出的兩款錄音產品(圖源/企業)“針對不同的人群和場景,什麼樣的形態能夠提供最佳的產品體驗,我們就會去開發這樣的產品形態。”許高這樣表示。而Plaud.AI需要在一個短暫的時間窗口迅速長大、站穩,因為一旦手機本身能完成Plaud Note的功能,創業公司會很難抗爭。但無論如何,Plaud.AI給無數創業者展示了誘人圖景:在複雜而廣闊的海外市場,背靠中國強大的供應鏈,一個寂寂無名的年輕人也能締造增長神話。 (硬氪)